Gerência de Incerteza em Bancos de Dados de Proveniência de Workflows de Bioinformática
نویسندگان
چکیده
Provenance databases play an essential role in scientific experiments. The models considered to represent such data assume that there is a certainty in all the provenance relations. However, several experiments are not deterministic, which makes their results to be associated with uncertainties. Analyze provenance data in the presence of such uncertainties is not trivial. In this paper, we address the management of non-deterministic provenance data by relying on an extractor component that stores both provenance data and its corresponding uncertainty values in a probabilistic database. Experiments show an acceptable overhead of 3% in the workflow runtime and 16% in the time spent to process a query.
منابع مشابه
Uso de SGBDs NoSQL na Gerência da Proveniência Distribuída em Workflows Científicos
Resumo. Um fator fundamental na gerência de experimentos modelados como workflows científicos são seus dados de proveniência. Esses dados basicamente são usados para garantir a reprodutibilidade, porém nos últimos anos eles também vêm sendo usados para tarefas de monitoramento e escalonamento de atividades. Como essas tarefas demandam consultas em tempo real, conforme a quantidade de dados de p...
متن کاملDistribuição de Bases de Dados de Proveniência na Nuvem
Resumo. Dados de proveniência no contexto de workflows científicos são peças fundamentais, pois, por meio deles, os experimentos são passíveis de reprodução e validação. O histórico da execução dos workflows é fundamental também para a gerência da execução de novos workflows uma vez que possibilitam às máquinas de workflow realizar predições sobre desempenho ou custo financeiro de nuvens de com...
متن کاملD-Bioflow: Uma Abordagem para Distribuição de Dados em Workflows de Bioinformática
Collaboration and technological resources exploration has greatly improved in scientific environments, due to the availability of a great number of computing services in the internet. However, this distributed scenario typically requires intensive data transfer between internet servers, which impacts the execution time of scientific workflows. This paper proposes an approach for managing distri...
متن کاملSGProv: Mecanismo de Sumarização para Múltiplos Grafos de Proveniência
Resumo. Os Sistemas de Gerência de Workflows Científicos (SGWfC) têm o objetivo de automatizar a construção e execução de experimentos científicos. Várias execuções de workflows são necessárias para realizar um experimento. O rastro de proveniência, coletado pelos SGWfC durante estas execuções, é importante para que os cientistas possam compreender, reproduzir e analisar seus experimentos. Um r...
متن کاملGerência de Proveniência Multigranular em Linked Data com a Abordagem ETL4LinkedProv
This paper presents the ETL4LinkedProv approach to manage the collection and publication of provenance metadata with different levels of granularity, as Linked Data. The approach uses ETL workflows and a novel component named Provenance Collector Agent. Its application in a real scenario is presented and the impact of the fine-grained provenance in the ETL workflow runtime and in the number of ...
متن کامل